单细胞数据的双刃剑!Cell:新研究指出人类scRNA-seq 数据集存在隐私泄露风险,应加强保护
来源:生物谷原创 2024-10-24 13:56
利用不同实验室生成的数据,甚至用不同方法处理的数据,然后用它来将完全不同的匿名数据集中的个体关联起来,这种能力相当惊人,而且凸显了单细胞数据的真正隐私问题。
获取公开的人类单细胞基因表达数据集(scRNA-seq 数据集)极大地促进了科学家们对复杂生物系统和各种疾病病因的了解。然而,可访问性的提高也引起了人们对捐赠细胞的个人隐私以及他们的私人健康信息在未经同意的情况下被共享的可能性的更大关注。
以前有关这些隐私泄露的研究主要集中在批量基因表达——测量来自组织或样本的大量细胞而非单个细胞的基因平均表达水平的数据共享上。鉴于单细胞数据集可能包含大量变异或“噪音”,科学家们并不认为这些数据集存在信息泄露的高风险。
如今,在一项新的研究中,来自纽约基因组中心、哥伦比亚大学和布朗大学的研究人员对这一假设提出了挑战。他们指出单细胞基因表达数据集中的个体很容易受到“链接攻击(linking attack)”。在这类链接攻击中,黑客可以发现研究参与者的私人遗传特征和生理特征信息。
相关研究结果于2024年10月2日在线发表在Cell期刊上,论文标题为“Private information leakage from single-cell count matrices”。
论文通讯作者、纽约基因组中心核心成员、哥伦比亚大学生物医学信息学助理教授Gamze Gürsoy博士说:“最近发布的群体规模单细胞数据集让我们得以接近隐私泄露这一主题,并解决黑客是否可以利用公开可用的信息通过单细胞数据的噪音来深入了解患者的基因组成、表型特征和疾病的问题。”
Gürsoy博士及其团队首先从一项红斑狼疮研究和OneK1K队列中收集数据,通过与公开的批量表达定量性状位点(eQTL)进行比较,将个人与其遗传和表型数据关联起来。
他们随后证实,使用细胞类型特异性 eQTL 可以更准确地进行这种关联。最后,他们表明,在无法获得eQTL数据的情况下,利用来自较少个体的遗传和单细胞数据来训练预测模型,将个体与其遗传和表型特征联系起来仍然是可行的。
论文第一作者、Gürsoy实验室前博士后Conor Walker补充说:“我们都知道基因表达模式受基因突变的影响,而基因突变的组合对每个个体来说都是独一无二的。我们的研究表明,通过使用一个队列中的基因变异和单细胞 RNA-Seq 数据,我们可以确定其他研究中可以预测的位点,而这完全依赖于这些研究中的单细胞表达数据。这种方法可以检索到不相关研究中参与者从未同意共享的遗传信息。”
图片来自Cell, 2024, doi:10.1016/j.cell.2024.09.012
由于数据不需要来自同一群体或人群,因此健康数据集可以用来预测患病数据集的信息。健康人和患病个体的基因表达有足够多的内在共性,即使在单个细胞中,疾病也不会对基因表达信号产生很大影响。
Gürsoy博士补充说:“利用不同实验室生成的数据,甚至用不同方法处理的数据,然后用它来将完全不同的匿名数据集中的个体关联起来,这种能力相当惊人,而且凸显了单细胞数据的真正隐私问题。我们希望这项研究能帮助定量确定数据发布前的风险,并影响未来研究的设计,以确保提高患者的隐私保护。”
作者希望这一发现将有助于制定明确而详细的同意政策,强调单细胞数据捐赠者的隐私风险,并制定法律和立法,防止攻击者利用这些信息造成伤害。(生物谷Bioon.com)
参考资料:
Conor R. Walker et al. Private information leakage from single-cell count matrices. Cell, 2024, doi:10.1016/j.cell.2024.09.012.
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。